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上 节 课 ， 我 们 主要 介绍 了 机 器 学 习 的 可 行 性 。 首 先 ， 由 NFL 定 理 可 知 ， 机 器 学 习 貌 似 
是 不 可 行 的 。 但 是 ， 随 后 引入 了 统计 学 知识 ， 如 果 样 本 数据 足够 大 ， 且 hypothesis 个 
数 有 限 ， 那 么 机 器 学 习 一 般 就 是 可 行 的 。 本 节 课 将 讨论 机 器 学 习 的 核心 问题 ， 严 格 证 
明 为 什么 机 器 可 以 学 习 。 从 上 节 课 最 后 的 问题 出 发 ， 即 当 hypothesis 的 个 数 是 无 限 多 
的 时 候 ， 机 器 学 习 的 可 行 性 是 否 仍 然 成 立 ? 


一 、Recap and Preview 


我 们 先 来 看 一 下 基于 统计 学 的 机 器 学 习 流 程 图 : 
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该 流程 图 中 ， 训 练 样 本 D 和 最 终 测试 h 的 样本 都 是 来 自 同一 个 数据 分 布 ， 这 是 机 器 能 
学 习 的 前 提 。 另 外 ， 训 练 样本 D 应 该 足够 大 ， 且 hypothesis set 的 个 数 是 有 限 的， 这 样 
根据 霍 夫 丁 不 等 式 ， 才 不 会 出 现 Bad Data， 保证 i 污 Bwwt， 即 有 很 好 的 泛 化 能 
力 。 同 时 ， 通 过 训练 ， 得 到 使 i, 最 小 的 n,， 作 为 模型 最 终 的 矩 g，g 接 近 于 目标 函数 。 


这 里 ， 我 们 总 结 一 下 前 四 节 课 的 主要 内 容 : 第 一 节 课 ， 我 们 介绍 了 机 器 学 习 的 定义 ， 
目标 是 找 出 最 好 的 矩 g， 使 9 污 f， 保证 Bowi (g) 盖 0; 第 二 节 课 ， 我 们 介绍 了 如 何 让 


Bi 完 0， 可 以 使 用 PLA、pocket 等 演算 法 来 实现 ; 第 三 节 课 ， 我 们 介绍 了 机 器 学 习 
的 分 类 ， 我 们 的 训练 样本 是 批量 数据 (batch) ， 处 理 监督 式 (supervised) 二 元 分 类 
(binary classification) 问题 ; 第 四 节 课 ， 我 们 介绍 了 机 器 学 习 的 可 行 性 ， 通 过 统计 
学 知识 ,把 Bin, (9) 与 Bowt (9) 联 系 起 来 ， 证 明了 在 一 些 条 件 假设 下 ， 

Bin(g) 六 Bowt (9) 成 立 。 


for batch & supervised binary classification, g Sf < Eout(9) 二 0 
NC 人 一、 一 一 


lecture 3 lecture 1 


achieved through Eout(9) = En(g9) and Ein(g9) 守 0 
ee/ Ver 


lecture 4 lecture 2 


这 四 节 课 总 结 下 来 ， 我 们 把 机 器 学 习 的 主要 目标 分 成 两 个 核心 的 问题 : 


。 Ein(g) ~ Eovi(g) 
本 Fin, (9) 足 够 小 


上 节 课 介绍 的 机 器 学 习 可 行 的 一 个 条 件 是 hypothesis set 的 个 数 M 是 有 限 的 ， 那 M 跟 上 
面 这 两 个 核心 问题 有 什么 联系 呢 ? 


我 们 先 来 看 一 下 ， 当 M 很 小 的 时 候 ， 由 上 节 课 介绍 的 霍 夫 丁 不 等 式 ， 得 到 

in (9) 污 Bowt (9)， 即 能 保证 第 一 个 核心 问题 成 立 。 但 M 很 小 时 ， 演 算法 A 可 以 选择 
的 hypothesis 有 限 ， 不 一 定 能 找到 使 Bin, (9) 足 够 小 的 hypothesis， 即 不 能 保证 第 二 个 
核心 问题 成 立 。 当 M 很 大 的 时 候 ， 同 样 由 霍 夫 丁 不 等 式 ，Bin, (9) 与 Bowi (9) 的 差距 可 
能 比较 大 ， 第 一 个 核心 问题 可 能 不 成 立 。 而 M 很 大 ， 使 的 演算 法 A 的 可 以 选择 的 
hypothesis 就 很 多 ， 很 有 可 能 找到 一 个 hypothesis， 使 Bin(g) 足 够 小 ， 第 二 个 核心 问 
题 可 能 成 立 。 


@ can we make sure that Eout(9)j is close enough to Ein(g)? 
@ can we make Ein(g) small enough? 


@ Yes!, 
P[BAD] < 2: /MM: exp(...) 


©@ Nol, too few choices 




















©@ Nol， 
P[BAD] < 2.W .exp(...) 


同 Yesl, many choices 


从 上 面 的 分 析 来 看 ，M 的 选择 直接 影响 机 器 学 习 两 个 核心 问题 是 否 满足 ，M 不 能 太 大 
也 不 能 太 小 。 那 么 如 果 M 无 限 大 的 时 候 ， 是 否 机 器 就 不 可 以 学 习 了 呢 ? 例如 PLA 算 法 
中 直线 是 无 数 条 的 ， 但 是 PLA 能 够 很 好 地 进行 机 器 学 习 ， 这 又 是 为 什么 呢 ? 如 果 我 们 
能 将 无 限 大 的 M 限 定 在 一 个 有 限 的 my 内， 问题 似乎 就 解决 了 。 


二 、Effective Number of Line 
我 们 先 看 一 下 上 节 课 推导 的 霍 夫 本 不等式 : 
PllEin(g) — Eou(g9)| > <2.:M- exp(—2eN) 


其 中 ，M 表 示 hypothesis 的 个 数 。 每 个 hypothesis 下 的 BAD events By, 级 联 的 形式 满 
足下 列 不 等 式 : 


P[B1 or B» or :.. Bu| < PIBi|+ PlB2|+ :+ PIBm| 


当 M = co 时 ， 上 面 不 等 式 右边 值 将 会 很 大 ， 似 乎 说 明 BAD events 很 大 ，in, (9g) 与 
out (9) 也 并 不 接近 。 但 是 BAD events Bi 级 联 的 形式 实际 上 是 扩大 了 上 界 ，union 
bound 过 大 。 这 种 做 法 假设 各 个 hypothesis 之 间 没 有 交集 ， 这 是 最 坏 的 情况 ， 可 是 实际 
上 往往 不 是 如 此 ， 很 多 情况 下 ， 都 是 有 交集 的 ， 也 就 是 说 M 实 际 上 没 那 么 大 ， 如 下 图 
所 示 : 


B; 


也 就 是 说 union bound 被 估计 过 高 了 (over-estimating) 。 所 以 ,我 们 的 目的 是 找 出 不 
同 BAD events 之 间 的 重 到 部 分 ， 也 就 是 将 无 数 个 hypothesis 分 成 有 限 个 类 别 。 


如 何 将 无 数 个 hypothesis 分 成 有 限 类 呢 ? 我们 先 来 看 这 样 一 个 例子 ， 假 如 平面 上 用 直 
线 将 点 分 开 ， 也 就 跟 PLA 一 样 。 如 果 平 面 上 只 有 一 个 点 x1， 那 么 直线 的 种 类 有 两 种 : 
一 种 将 x1 划 为 +1， 一 种 将 x1 划 为 -1: 





2 kinds: hi-like(x1) = o or ho-like(Xx1) = x 





如 果 平 面 上 有 两 个 点 x1、x2， 那 么 直线 的 种 类 共 4 种 : x1、x2 都 为 +1，x1、x2 都 
为 -1，x1 为 +1 且 x2 为 -1，x1 为 -1 上 且 x2 为 +1: 


Poemseeeeeeeeeees 


: 


如 果 平 面 上 有 三 个 点 x1、x2、x3， 那 么 直线 的 种 类 共 8 种 


forthree inputs Xi , X2. Xa 


mm 





! eX1 
| x 
ne ' ” x “i 
i eX - 8: 
人 O > 
x O 
oO 4 
0 XxX 
always 8 for three inputs? | x © 
x O 


但 是 ， 在 三 个 点 的 情况 下 ， 也 会 出 现 不 能 用 一 条 直线 划分 的 情况 : 


2 


X| 





下 


‘fewer than 8’ when degenerate 
(e.g. collinear or same inputs) | 


X oO 
也 就 是 说 ， 对 于 平面 上 三 个 点 ， 不 能 保证 所 有 的 8 个 类 别 都 能 被 一 条 和 直线 划分 。 那 如 果 
是 四 个 点 x1、x2、x3、x4， 我们 发 现 ， 平 面 上 找 不 到 一 条 直线 能 将 四 个 点 组 成 的 16 个 


类 别 完全 分 开 ， 最 多 只 能 分 开 其 中 的 14 类 ， 即 直线 最 多 只 有 14 种 : 


for four inputs X1, X2, Xa, Xa 


mmmmmmmmmmmmmmmmnmi 





经 过 分 析 ， 我 们 得 到 平面 上 线 的 种 类 是 有 限 的 ，1 个 点 最 多 有 2 种 线 ，2 个 点 最 多 有 4 种 
线 ，3 个 点 最 多 有 8 种 线 ，4 个 点 最 多 有 14 (< 24 ) 种 线 等 等 。 我 们 发 现 ， 有 效 直线 的 
数量 总 是 满足 < 2” ， 其 中 ，N 是 点 的 个 数 。 所 以 ， 如 果 我 们 可 以 用 effective(N) 代 蔡 
M， 霍 夫 丁 不等式 可 以 写成 : 


PllEin(g) — Evi(g)| > ¢] <2.effective(N): erxp(—2eN) 


已 知 effective(N)<2” ， 如 果 能 够 保证 effective(N)<<2^ ， 即 不 等 式 右边 接近 于 零 ， 那 
么 即使 M 无 限 大 ， 直 线 的 种 类 也 很 有 限 ， 机 器 学 习 也 是 可 能 的 。 


。 must be < 2N (why?) 
。finite ‘grouping’ of infinitely-many lines e X | | N | effective(N) 
e Wish: 


P[|Ein(g)— Eout(9)| > 9 
< 2.effective(N) .exp (-2eN) 








if (1) effective( N) can replace M and 


(2) effective(N) 和 2N 
learning possible with infinite lines :-) 





二 、Effective Number of Hypotheses 


接 下 来 先 介绍 一 个 新 名 词 : 二 分 类 (dichotomy) 。dichotomy 就 是 将 空间 中 的 点 ( 例 
如 二 维 平面 ) 用 一 条 直线 分 成 正 类 ( 蓝 色 o) 和 负 类 (红色 x) 。 令 H 是 将 平面 上 的 点 
用 直线 分 开 的 所 有 hypothesis h 的 集合 ，dichotomy H 与 hypotheses H 的 关系 是 : 
hypotheses H 是 平面 上 所 有 直线 的 集合 ， 个 数 可 能 是 无 限 个 ， 而 dichotomy H 是 平面 
上 能 将 点 完全 用 直线 分 开 的 直线 种 类 ， 它 的 上 界 是 2 。 接 下 来 ， 我 们 要 做 的 就 是 尝试 
用 dichotomy 代 蔡 M。 


e Call 
h(x1, X2,...,XN) = (h(x1), h(x2),..., h(xN)) € {x,o}" 


a dichotomy: hypothesis ‘limited’ to the eyes of x1, X2,...,XN 
a 
all dichotomies ‘implemented’ by 7 on X1;,X2,...， XN 


| | hypotheses 允 
eg | all inesin 
| size | possibly infinite upper bounded by 2° 





义 是 : 对 于 由 N 个 点 组 成 的 不 同 集合 中 ， 某 集合 对 应 的 dichotomy 最 大 ， 那 么 这 个 
dichotomy 值 就 是 my (及 )， 它 的 上 界 是 2 : 


mx(N) = max |H(X1,X2,...,XN)| 
X1,X2 


ysXNELT 


成 长 函数 其 实 就 是 我 们 之 前 讲 的 effective lines 的 数量 最 大 值 。 根 据 成 长 函数 的 定义 ， 
二 维 平 面 上 ，7m 厂 ( 瑟 ) 随 N 的 变化 关系 是 : 





接 下 来 ， 我 们 讨论 如 何 计算 成 长 函数 。 先 看 一 个 简单 情况 ， 一 维 的 Positive Rays: 


h(z) = -1 h(x) 三 十 1 


a 
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若 有 N 个 点 ， 则 整个 区 域 可 分 为 N+1 段 ， 很 容易 得 到 其 成 长 函数 mg (V) 二 N 十 1。 
注意 当 N 很 大 时 ，(N 十 1) << 2* ， 这 是 我 们 希望 看 到 的 。 


另 一 种 情况 是 一 维 的 Positive Intervals : 


Il Ty I3 eee IN 


它 的 成 长 函数 可 以 由 下 面 推导 得 出 : 


one dichotomy for each ‘interval kind 


mu(N) = (人 1 


interval ends in N+1spots allx 


1 > 1 
aN +aN+1 


这 种 情况 下 ,mp (N) = 二 和 N? 十 二 N 十 1 << 2 ， 在 N 很 大 的 时 候 ， 仍 然 是 满足 
的 。 

再 来 看 这 个 例子 ， 假 设 在 二 维 空间 里 ， 如 果 hypothesis 是 凸 多 边 形 或 类 圆 构成 的 封闭 
曲线 ， 如 下 图 所 示 ， 左 边 是 convex 的 ， 右 边 不 是 convex 的 。 那 么 ， 它 的 成 长 函数 是 多 


少 呢 ? 





convex region in blue non-convex region 


当 数据 集 D 按 照 如 下 的 凸 分 布 时 ， 我 们 很 容易 计算 得 到 它 的 成 长 函数 mr 二 2 。 这 
种 情况 下 ，N 个 点 所 有 可 能 的 分 类 情况 都 能 够 被 hypotheses set 履 盖 ， 我 们 把 这 种 情形 
称 为 shattered。 也 就 是 说 ， 如 果 能 够 找到 一 个 数据 分 布 集 ，hypotheses set 对 N 个 输 
入 所 有 的 分 类 情况 都 做 得 到 ， 那 么 它 的 成 长 函数 就 是 2” 。 





四 、Break Point 


上 一 小 节 ， 我 们 介绍 了 四 种 不 同 的 成 长 函数 ， 分 别 是 : 


e。 positive rays: ma(N)= N+1 
。positive intervals: mx(N) = 3N? + 3N+1 
。 COnvex sets: mx(N) = 2N 
。 2D perceptrons: mx(N) < 2" in some cases 


其 中 ，positive rays 和 positive intervals 的 成 长 函数 都 是 polynomial 的 ， 如 果 用 7 六 代 
蔡 M 的 话 ， 这 两 种 情况 是 比较 好 的 。 而 convex sets 的 成 长 函数 是 exponential 的 ， 即 等 
于 M， 并 不 能 保证 机 器 学 习 的 可 行 性 。 那 么 ， 对 于 2D perceptrons， 它 的 成 长 函数 究 


竟 是 polynomial 的 还 是 exponential 的 呢 ? 


对 于 2D perceptrons， 我 们 之 前 分 析 了 3 个 点 ， 可 以 做 出 8 种 所 有 的 dichotomy， 而 4 个 
点 ， 就 无 法 做 出 所 有 16 个 点 的 dichotomy 了 。 所 以 ,我们 就 把 4 称 为 2D perceptrons 的 
break point (5、6、7 等 都 是 break point) 。 令 有 k 个 点 ， 如 果 k 大 于 等 于 break point 
时 ， 它 的 成 长 函数 一 定 小 于 2 的 k 次 方 。 


根据 break point 的 定义 ， 我 们 知道 满足 mp (k) 关 2* 的 k 的 最 小 值 就 是 break point。 
对 于 我 们 之 前 介绍 的 四 种 成 长 函数 ， 他 们 的 break point 分 别 是 : 


e。 positive rays: Mma(N)= N+1= O(N) 
break point at 2 


。positive intervals: mx(N) = 3N? + 3N+1= O(N?) 
break point at 3 

。 COnvex sets: ma(N) = 2N 
no break point 

。 2D perceptrons: ma(N) < 2N in some cases 
break point at 4 


通过 观察 ， 我 们 猜测 成 长 函数 可 能 与 break point 存 在 某 种 关系 : 对 于 convex sets， 没 
有 break point， 它 的 成 长 函数 是 2 的 N 次 方 ; 对 于 positive rays，break point k=2， 它 
的 成 长 函数 是 O(N); 对 于 positive intervals，break point k=3， 它 的 成 长 函数 是 
O(N? )。 则 根据 这 种 推论 ， 我 们 猜测 2D perceptrons， 它 的 成 长 函数 

mp(N) = O(N* 1) 。 如 果 成 立 ， 那 么 就 可 以 用 mm 万 代 蔡 M， 就 满足 了 机 器 能 够 学 
习 的 条 件 。 关 于 上 述 猜测 的 证 明 ， 我 们 下 节 课 再 详细 介绍 。 


五 、 总 结 


本 节 课 ， 我 们 更 深入 地 探讨 了 机 器 学 习 的 可 行 性 。 我 们 把 机 器 学 习 拆 分 为 两 个 核心 问 
题 : Bin(g9) 六 Boui (9) 和 Bin(g) 六 0。 对 于 第 一 个 问题 ， 我 们 探讨 了 M 个 
hypothesis 到 底 可 以 划分 为 多 少 种 ， 也 就 是 成 长 函数 rm 瑟 。 并 引入 了 break point 的 概 
念 ， 给 出 了 break point 的 计算 方法 。 下 节 课 ， 我 们 将 详细 论证 对 于 2D perceptrons， 
它 的 成 长 函数 与 break point 是 否 存 在 多 项 式 的 关系 ， 如 果 是 这 样 ， 那 么 机 器 学 习 就 是 
可 行 的 。 


注 明 : 
文章 中 所 有 的 图 片 均 来 自 台 湾 大 学 林 轩 田 《 机 器 学 习 基 石 》 课 程 。 


